JSAI2026 単位超球面上の文埋め込みに基づく潜在トピックモデル
テーマ
文書を「単語の集合」ではなく「正規化された文埋め込みの集合」として扱うトピックモデル
各トピックを、通常のガウス分布ではなく、単位超球面上のvon Mises–Fisher分布で表現する
コサイン類似度で扱われる文埋め込みに、より自然に合う確率モデルを作る研究
潜在トピックモデル
話題を推定する確立生成モデル
複数のトピックの混合として生成されると仮定
有名どころ
LDA
複合トピックの混合、Bag of Words
BERTopic、Top2Vec
意味的な類似性の考慮
埋め込み表現の次元削減、クラスタリング系
アイデア: 潜在トピックモデルに文埋め込みを導入
トピック割り当ての単位を、WordでなくSentenceとする
意外と、一般的な発想ではないらしいdaiiz.icon
背景課題
LDAなどの従来型トピックモデルはBag of Words前提のため、語順・文脈・言い換えを扱いにくい
文埋め込みを使う既存手法はあるが、多くはユークリッド空間上のガウス分布として扱う
しかし実際の埋め込み検索では、正規化ベクトルとコサイン類似度を使うことが多い
そのため、埋め込みを「方向データ」として扱う方が自然ではないか、という問題意識がある
提案
vMF Sentence LDA
階層ベイズモデル
文書を文に分割し、各文をSentenceBERTで埋め込み化する
文ベクトルを単位長に正規化する
文ごとに潜在トピックを割り当てる
各トピックは単位超球面上の方向分布として表現する
LDAの「文書は複数トピックの混合」という解釈は維持する
Why von Mises–Fisher分布?
文埋め込みの意味は「方向」に現れる
高次元埋め込みに対して軽量に推論できる
コサイン類似度が意味的類似性を示している前提で、特定の文埋め込みモデルに依存しない
データセット
The 20 Newsgroups
The New York Times
評価
分類性能(サンプル効率)
vSLDA(提案手法)
ほぼすべての条件で最高精度
→ 文埋め込みをうまく使えている
Coherence
トピック間の一貫性
vSLDAが一貫して最良
Diversity
トピック間の多様性
vSLDAが一貫して最良
苦手系な文書
稟議書など
#聴講メモ